智能论文笔记

evoML Yellow Paper: Evolutionary AI and Optimisation Studio

Lingbo Li , Leslie Kanthan , Michail Basios , Fan Wu , Manal Adham , Vitali Avagyan , Alexis Butler , Paul Brookes , Rafail Giavrimis , Buhong Liu

分类：人工智能

2022-12-20

Machine learning model development and optimisation can be a rather cumbersome and resource-intensive process. Custom models are often more difficult to build and deploy, and they require infrastructure and expertise which are often costly to acquire and maintain. Machine learning product development lifecycle must take into account the need to navigate the difficulties of developing and deploying machine learning models. evoML is an AI-powered tool that provides automated functionalities in machine learning model development, optimisation, and model code optimisation. Core functionalities of evoML include data cleaning, exploratory analysis, feature analysis and generation, model optimisation, model evaluation, model code optimisation, and model deployment. Additionally, a key feature of evoML is that it embeds code and model optimisation into the model development process, and includes multi-objective optimisation capabilities.

translated by 谷歌翻译

ASTA: Learning Analytical Semantics over Tables for Intelligent Data Analysis and Visualization

Lingbo Li , Tianle Li , Xinyi He , Mengyu Zhou , Shi Han , Dongmei Zhang

分类：机器学习

2022-08-01

表的智能分析和可视化表使用技术自动从数据中推荐有用的知识，从而使用户免于乏味的多维数据挖掘。尽管许多研究成功地通过规则或机器学习来自动化建议，但很难概括专家知识并提供可解释的建议。在本文中，我们首次提出条件格式的建议，以及图表建议，以示例智能表分析。我们建议对表上的分析语义，以发现用户创建的分析背后的共同分析模式。在这里，我们通过将数据重点与用户意图分开，从而分别从数据和人类的角度提取了用户的动机来设计分析语义。此外，我们设计的ASTA框架是为了将分析语义应用于多个自动化建议。 ASTA框架通过根据专家知识设计签名来提取数据功能，并在现场（图）或细胞级（条件格式）（条件格式化）中启用数据引用。实验表明，我们的框架在公共图表中的62.86％中的前1位获得了召回率，在公共图表中，最佳基准优于14％的最佳基准，并在收集的语料库中获得了72.31％的召回，证明ASTA框架有效地提供了准确且可解释的建议。

translated by 谷歌翻译

Probing Visual-Audio Representation for Video Highlight Detection via Hard-Pairs Guided Contrastive Learning

Shuaicheng Li , Feng Zhang , Kunlin Yang , Lingbo Liu , Shinan Liu , Jun Hou , Shuai Yi

分类：计算机视觉

2022-06-21

视频突出显示检测是一个至关重要但充满挑战的问题，旨在识别未修剪视频中有趣的时刻。该任务的关键在于有效的视频表示形式共同追求两个目标，即\ textit {i.e。}，跨模式表示学习和精细元素特征歧视。在本文中，这两个挑战不仅通过丰富表示建模的模式内部和跨模式关系来应对，而且还以歧视性的方式塑造了这些特征。我们提出的方法主要利用模式内编码和交叉模式共发生编码来完全表示建模。具体而言，编码的模式内模式可以增强模态特征，并通过音频和视觉信号中的模式关系学习来抑制无关的模态。同时，跨模式的共同发生编码着重于同时模式间关系，并选择性地捕获了多模式之间的有效信息。从本地上下文中抽象的全局信息进一步增强了多模式表示。此外，我们使用硬对对比度学习（HPCL）方案扩大了特征嵌入的判别能力。进一步采用了硬对采样策略来开采硬样品，以改善HPCL中的特征歧视。与其他最新方法相比，在两个基准上进行的广泛实验证明了我们提出的方法的有效性和优势。

translated by 谷歌翻译

Pyramid Region-based Slot Attention Network for Temporal Action Proposal Generation

Shuaicheng Li , Feng Zhang , Rui-Wei Zhao , Rui Feng , Kunlin Yang , Lingbo Liu , Jun Hou

分类：计算机视觉

2022-06-21

已经发现，旨在在未修剪视频的开始和终点范围内发现的时间动作实例的时间动作提案生成可以在很大程度上受益于适当的时间和语义上下文的剥削。最新的努力致力于通过自我发项模块来考虑基于时间的环境和基于相似性的语义上下文。但是，他们仍然遭受混乱的背景信息和有限的上下文特征学习的困扰。在本文中，我们提出了一个基于金字塔区域的新型插槽注意（PRSLOT）模块来解决这些问题。我们的PRSLOT模块不使用相似性计算，而是直接以编码器方式来学习本地关系，并基于注意力输入功能（称为\ textit {slot}}的注意力输入功能，生成了局部区域的表示。具体而言，在输入段级级别上，PRSLOT模块将目标段作为\ textIt {query}，其周围区域为\ textit {key}，然后通过聚集每个\ textit {query-key}插槽来生成插槽表示。具有平行金字塔策略的本地摘要上下文。基于PRSLOT模块，我们提出了一种基于金字塔区域的新型插槽注意网络，称为PRSA-NET，以学习具有丰富的时间和语义上下文的统一视觉表示，以获得更好的建议生成。广泛的实验是在两个广泛采用的Thumos14和ActivityNet-1.3基准上进行的。我们的PRSA-NET优于其他最先进的方法。特别是，我们将AR@100从以前的最佳50.67％提高到56.12％，以生成提案，并在0.5 TIOU下将地图从51.9 \％\％提高到58.7 \％\％\％\％\％，以在Thumos14上进行动作检测。 \ textit {代码可在} \ url {https://github.com/handhand123/prsa-net}中获得

translated by 谷歌翻译

Aerial Images Meet Crowdsourced Trajectories: A New Approach to Robust Road Extraction

Lingbo Liu , Zewei Yang , Guanbin Li , Kuo Wang , Tianshui Chen , Liang Lin

分类：计算机视觉 | 人工智能

2021-11-30

土地遥感分析是地球科学的一个至关重要的研究。在这项工作中，我们专注于土地分析的挑战任务，即自动提取来自遥感数据的交通道路，在城市发展和扩展估计中具有广泛的应用。然而，传统方法仅利用空中图像的有限信息，或者简单地融合多峰信息（例如，车辆轨迹），因此无法识别不受约束的道路。为了促进这个问题，我们介绍了一种新的神经网络框架，称为跨模型消息传播网络（CMMPNET），其完全有益于互补的不同模态数据（即，空中图像和众包轨迹）。具体地，CMMPNET由两个深度自动编码器组成，用于模态特定的表示学习和用于跨模型表示细化的定制设计的双增强模块。特别地，全面提取和动态地传播每个模态的互补信息以增强另一个模态的表示。关于三个真实基准的广泛实验展示了我们CMMPNET对强大的道路提取的有效性，这些资务道路提取受益于使用图像和轨迹数据或图像和LIDAR数据进行混合不同的模态数据。从实验结果来看，我们观察到所提出的方法优于大型利润率的当前最先进的方法。

translated by 谷歌翻译

Video Crowd Localization with Multi-focus Gaussian Neighborhood Attention and a Large-Scale Benchmark

Haopeng Li , Lingbo Liu , Kunlin Yang , Shinan Liu , Junyu Gao , Bin Zhao , Rui Zhang , Jun Hou

分类：计算机视觉

2021-07-19

视频人群本地化是一项至关重要但又具有挑战性的任务，旨在估算给定拥挤视频中人头的确切位置。为了模拟人类活动性的时空依赖性，我们提出了多焦点高斯邻里注意力（GNA），可以有效利用远程对应关系，同时保持输入视频的空间拓扑结构。特别是，我们的GNA还可以使用配备的多聚焦机制良好地捕获人头的尺度变化。基于多聚焦GNA，我们开发了一个名为GNANET的统一神经网络，以通过场景建模模块和上下文交叉意见模块充分聚合时空信息来准确地定位视频片段中的头部中心。此外，为了促进该领域的未来研究，我们介绍了一个名为VScrowd的大规模人群视频基准，该视频由60k+框架组成，这些框架在各种监视场景和2M+头部注释中捕获。最后，我们在包括我们的SenseCrowd在内的三个数据集上进行了广泛的实验，实验结果表明，所提出的方法能够实现视频人群本地化和计数的最新性能。

translated by 谷歌翻译

Prompt-Matched Semantic Segmentation

Lingbo Liu , Bruce X. B. Yu , Jianlong Chang , Qi Tian , Chang-Wen Chen

分类：计算机视觉

2022-08-22

这项工作的目的是探索如何有效有效地将预训练的基础模型适应图像语义分割的各种下游任务。常规方法通常为每个特定数据集微调整个网络，并且存储这些网络的大量参数是繁重的。最近的一些作品试图将一些可训练的参数插入冷冻网络中，以学习有效调整的视觉提示。但是，这些作品显着修改了标准模块的原始结构，使其在许多现有的高速推理设备上无法使用，其中标准模块及其参数已嵌入。为了促进基于及时的语义细分，我们提出了一个新颖的阶段间及时匹配的框架，该框架保持基础模型的原始结构，同时自适应地生成视觉提示，以适应以任务为导向的调整。具体而言，首先将预训练的模型分为多个阶段，其参数被冷冻并共享所有语义分割任务。然后将称为语义意识的提示匹配器的轻巧模块在两个阶段之间介绍给层次上的插值，以在临时语义图的指导下学习每个特定任务的合理提示。这样，我们可以更好地刺激对冷冻模型的预训练的知识，以有效地学习下游数据集的语义概念。在五个基准上进行的广泛实验表明，所提出的方法可以实现参数效率和性能效率之间的有希望的权衡。

translated by 谷歌翻译

Bootstrapping a User-Centered Task-Oriented Dialogue System

Shijie Chen , Ziru Chen , Xiang Deng , Ashley Lewis , Lingbo Mo , Samuel Stevens , Zhen Wang , Xiang Yue , Tianshu Zhang , Yu Su

分类：自然语言处理 | 人工智能 | 机器学习

2022-07-11

我们提出了Tacobot，这是为首届Alexa Prive Taskbot Challenge构建的面向任务的对话系统，该系统可帮助用户完成多步骤烹饪和家庭装修任务。Tacobot的设计采用以用户为中心的原则，并渴望提供协作且易于访问的对话体验。为此，它具有准确的语言理解，灵活的对话管理和引人入胜的响应生成。此外，Tacobot还以强大的搜索引擎和自动化的端到端测试套件为支持。在引导Tacobot的开发中，我们探索了一系列数据增强策略，以训练先进的神经语言处理模型，并通过收集的真实对话不断改善对话经验。在半决赛结束时，Tacobot的平均评分为3.55/5.0。

translated by 谷歌翻译

TCGL: Temporal Contrastive Graph for Self-supervised Video Representation Learning

Yang Liu , Keze Wang , Lingbo Liu , Haoyuan Lan , Liang Lin

分类：计算机视觉

2021-12-07

视频自我监督的学习是一项挑战的任务，这需要模型的显着表达力量来利用丰富的空间时间知识，并从大量未标记的视频产生有效的监督信号。但是，现有方法未能提高未标记视频的时间多样性，并以明确的方式忽略精心建模的多尺度时间依赖性。为了克服这些限制，我们利用视频中的多尺度时间依赖性，并提出了一个名为时间对比图学习（TCGL）的新型视频自我监督学习框架，该框架共同模拟了片段间和片段间的时间依赖性用混合图对比学习策略学习的时间表示学习。具体地，首先引入空间 - 时间知识发现（STKD）模块以基于离散余弦变换的频域分析从视频中提取运动增强的空间时间表。为了显式模拟未标记视频的多尺度时间依赖性，我们的TCGL将关于帧和片段命令的先前知识集成到图形结构中，即片段/间隙间时间对比图（TCG）。然后，特定的对比学习模块旨在最大化不同图形视图中节点之间的协议。为了为未标记的视频生成监控信号，我们介绍了一种自适应片段订购预测（ASOP）模块，它利用视频片段之间的关系知识来学习全局上下文表示并自适应地重新校准通道明智的功能。实验结果表明我们的TCGL在大规模行动识别和视频检索基准上的最先进方法中的优势。

translated by 谷歌翻译

Unconstrained Face Sketch Synthesis via Perception-Adaptive Network and A New Benchmark

Lin Nie , Lingbo Liu , Zhengtao Wu , Wenxiong Kang

分类：计算机视觉 | 机器学习

2021-12-02

面部剪影生成在视野中引起了很多关注。然而，现有方法要么限制受约束条件或大量依赖于各种预处理步骤处理野外病例。在本文中，我们认为，准确地感知面部区域和面部部件对于无关训练的草图合成至关重要。为此，我们提出了一种新颖的感知 - 自适应网络（PANET），其可以在端到端方案中的无约束条件下产生高质量的面部草图。具体而言，我们的PANET由I）用于分层特征提取的完全卷积的编码器，ii）用于提取潜在面部区域和处理面部变化的面部自适应感知解码器，以及III）用于面部组件感知功能的组件 - 自适应感知模块代表学习。为了便于进一步研究不受约束的面部素描综合，我们介绍了一个新的基准被称为Wildsketch，其中包含800对脸上的照片素描，具有姿势，表达，民族来源，背景和照明的大变化。广泛的实验表明，所提出的方法能够在受约束和无约束条件下实现最先进的性能。我们的源代码和Wildsketch基准测试在项目页面http://plingboliu.com/unconstrow_face_sketch.html上进行重新密封。

translated by 谷歌翻译